Token 经济(Token Economy)
概念解析
定义与起源
Token 经济是 黄仁勋 在 2024-2026 年间逐步定型的一套经济学叙事:在 AI 工厂 时代,token 是新的产能单位,perf-per-watt 是新的生产函数,算力(compute)直接等于收入(revenues)。
这个概念的早期形态出现在 2024-03 GTC 2024 - Blackwell B200 发布,黄仁勋 第一次把 token 比作"工业革命里的电子"。完整定型则出现在 2026-Q4 NVIDIA FY26 财报,他直接喊出:"compute equals revenues"。
"In this new world of AI, compute is revenues. Without compute, you have no way to generate tokens. Without tokens, you have no way to grow revenues."
"在这个 AI 的新世界里,算力即收入。没有算力就没办法生成 token,没有 token 就没办法增长收入。"
——2026-Q4 NVIDIA FY26 财报
核心要义
第一,Token 是新的电子。
"We are now using a new infrastructure called an AI factory to produce a new electron, tokens, producing a new and extremely valuable thing: artificial intelligence."
"我们今天在用一种叫 AI 工厂的基础设施,生产一种新的电子——token——产出一种新的极其有价值的东西:人工智能。"
——2024-03 GTC 2024 - Blackwell B200 发布
黄仁勋 在 2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 把这个命名形式化为产品名——NVIDIA Dynamo(AI 工厂的操作系统)就是为了向上一次工业革命的"发电机"致敬。
第二,Perf-per-Watt = 收入。
这是 Token 经济最核心的换算式。在 2025-09 BG2 Pod - OpenAI 与算力未来 里 黄仁勋 给出最完整的论证:
"Everybody's power limited. Let's say you were able to secure two more gigawatts of power. You would want that to translate to revenues. So if your performance per watt was twice as high as somebody else's, you can produce twice as much revenues from your data center. Who doesn't want twice as much revenues?"
"所有人都是电力受限的。假如你多拿到 2 GW 电力,你当然想把它变成收入。如果我的 perf-per-watt 是别人的两倍,我的客户就能从同一个数据中心生出两倍的收入——谁不想要两倍的收入?"
——2025-09 BG2 Pod - OpenAI 与算力未来
更狠的一步:
"Blackwell is 30 times Hopper. Let's pretend somebody else's ASIC is Hopper. So you've got to give up 30 times revenues in that 1 gigawatt. Even if they gave it to you for free, your opportunity cost is so insanely high, you would always choose the best performance per watt."
"Blackwell 是 Hopper 的 30 倍。假如别人的 ASIC 相当于 Hopper,你就要在那 1 GW 里放弃 30 倍收入——就算他们免费送,你的机会成本也高到你必须选 perf-per-watt 最高的那家。"
——2025-09 BG2 Pod - OpenAI 与算力未来
第三,每次推理都不是 one-shot——而是被两个指数同时放大的 token 海啸。
在 推理时代 里,token 量在双重指数级增长:
"They're going through two exponentials. The first is the number of customers is growing exponentially because the AI is getting better. The second is the computational exponential of every use—instead of just one-shot inference, it's now thinking before it answers."
"他们正在穿越两个指数——第一个是用户数的指数增长,第二个是每次调用计算量的指数增长。两个指数在互相叠加。"
——2025-09 BG2 Pod - OpenAI 与算力未来
2025-Q4 NVIDIA FY25 财报 - Blackwell ramp 给出了具体倍数:"今天一个带 chain-of-thought 的推理模型一次任务消耗的 token 量已经是早期的 100 倍。下一代可能是几千倍;真正的模拟/搜索模型可能是几十万倍、几百万倍。"
第四,token 被商品化之后,质量竞争立刻变成数据中心吞吐竞争。
在 2025-Q4 NVIDIA FY25 财报 - Blackwell ramp 里:
"Speed is performance, and performance is revenues. The data center has a fixed size or a fixed power. If our performance per watt is 2x, 4x, 8x, that translates directly into 2x, 4x, 8x of revenues, because the AI factory's revenues monetize directly through the tokens it generates."
"速度即性能,性能即收入。如果我们的 perf-per-watt 是 2 倍、4 倍、8 倍,那直接就是 2 倍、4 倍、8 倍的收入——因为 AI 工厂的收入是通过它生成的 token 直接变现的。"
——2025-Q4 NVIDIA FY25 财报 - Blackwell ramp
实践应用
- NVIDIA Dynamo(2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin)—— "AI 工厂的操作系统",用 prefill/decode 分离、KV cache 路由、in-flight batching 把 token 吞吐量再提一档
- OpenAI Stargate —— 4000 亿美金算力的核心论证就是"token 需求指数增长 → 必须现在锁定算力"
- Anthropic —— 2026-Q4 NVIDIA FY26 财报 提到 Anthropic 的收入一年涨 10 倍,"严重被产能约束,因为 token 需求爆表"
- xAI Colossus —— Elon 用 4 个月建 Colossus 的根本逻辑:早一天上线 = 早一天开始卖 token
常见误区
误区一:token = 字数。
错。Token 是模型内部的最小计算单位——在 reasoning 模型里,"思考"过程也消耗 token;在 agentic 系统里,agent 之间的协调消耗 token;在多模态模型里,图像、视频、声音都会被 tokenize。
误区二:推理便宜,训练贵——所以 ASIC 只要做推理就够了。
错。这是 黄仁勋 在 2026-03 Lex Fridman 494 - 4 万亿公司与 AGI 里最不屑的一种说法:
"Inference is thinking, and I think thinking is hard. How could that possibly be compute light?"
而且现实数据是:2025-Q4 NVIDIA FY25 财报 - Blackwell ramp 明确说"今天我们的算力中绝大多数都在跑推理"。
误区三:等 token 价格被打下来,token 经济就破产了。
错。这恰恰是 token 经济的正反馈——token 越便宜,使用场景越多,agentic 系统派生越多 sub-agent,token 总需求反而越大。这就是 黄仁勋 反复讲的"两个指数叠加"。
黄仁勋原话精选
"Compute equals revenues."
"算力即收入。"
——2026-Q4 NVIDIA FY26 财报"The AI factory's revenues monetize directly through the tokens it generates."
"AI 工厂的收入是通过它生成的 token 直接变现的。"
——2025-Q4 NVIDIA FY25 财报 - Blackwell ramp"Even if somebody's ASIC is free, opportunity cost is too high. You'd always choose the best perf per watt."
"就算别人的 ASIC 免费送,机会成本也高到你必须选 perf-per-watt 最高的那家。"
——2025-09 BG2 Pod - OpenAI 与算力未来"Tokens per second per user × tokens per second per data center—you want to maximize the area under that curve."
"单用户每秒 token × 数据中心每秒 token——你要最大化曲线下面积。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
思想演变
- 2024 年春:GTC 2024 引入 "token 是新的电子" 的工业革命隐喻
- 2025 年春:GTC 2025 把 AI 工厂正式 power-limited 化,提出 perf-per-watt = 收入的换算式
- 2025 年秋:BG2 Pod 把"免费 ASIC 也不要"作为推论形式化,OpenAI Stargate 成为案例
- 2026 年春:FY26 财报喊出 "compute equals revenues",token 经济成为整个产业的会计科目
相关概念
- AI 工厂 —— Token 经济的物理载体
- 推理时代 —— Token 数量被双重指数放大的根本原因
- Extreme Co-Design —— 把 perf-per-watt 拉到极致的工程方法
- Scale Up 与 Scale Out —— Token 工厂内部的两条 scaling 轴
- 加速计算 —— Token 经济的底层计算范式
典型案例
- Blackwell vs Hopper:30 倍 perf-per-watt 提升 = 30 倍收入潜力(同样的 1 GW)
- NVIDIA Dynamo:AI 工厂的操作系统,专门优化 token 吞吐
- Anthropic:一年收入 10 倍增长,被 token 产能约束(2026-Q4 NVIDIA FY26 财报)
- 5 万亿美金/年的全球算力 CapEx 推算:黄仁勋 在 2025-09 BG2 Pod - OpenAI 与算力未来 给出的"55-65% 的 GDP × AI 增强 × 50% 毛利"算式